中科院首次让AI学会“看图反思”:视觉推理模型不再“看一眼就算数”
当我们解决数学题时,如果第一遍算错了,通常会回头重新审题,仔细观察图表中的细节。但目前的人工智能视觉模型却做不到这一点——它们看图就像"一目十行"的快速阅读,看一眼就下结论,很少会重新审视图像中的关键信息。
当我们解决数学题时,如果第一遍算错了,通常会回头重新审题,仔细观察图表中的细节。但目前的人工智能视觉模型却做不到这一点——它们看图就像"一目十行"的快速阅读,看一眼就下结论,很少会重新审视图像中的关键信息。
综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。
在大模型竞赛围绕参数规模和跑分展开时,美团发布的新一代大模型选择了一条不同的路径:一切围绕能否真正解决问题展开。它不仅在国际权威的数学、代码测评中达到了顶级水平,更在晚上吃什么?礼物怎么选?这类具体而微小的生活难题中,展现出理解力和实用性。本文将结合技术报告与
官方介绍称,在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,
在 2013 年,DeepMind 就展示过一个小实验:用 RL 训练的智能体,只凭屏幕上的像素和得分反馈,就能学会玩上世纪的街机游戏《打砖块》。几年后,AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号,超越了世界顶尖棋手,在围棋、国际象棋和
在 2013 年,DeepMind 就展示过一个小实验:用 RL 训练的智能体,只凭屏幕上的像素和得分反馈,就能学会玩上世纪的街机游戏《打砖块》。几年后,AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号,超越了世界顶尖棋手,在围棋、国际象棋和
在 2013 年,DeepMind 就展示过一个小实验:用 RL 训练的智能体,只凭屏幕上的像素和得分反馈,就能学会玩上世纪的街机游戏《打砖块》。几年后,AlphaGo 和 AlphaZero 更是通过自我对弈和奖励信号,超越了世界顶尖棋手,在围棋、国际象棋和
在人工智能技术演进中,训练模型与推理模型构成AI系统开发的核心闭环。前者如同构建精密的认知引擎,后者则像高效运转的决策机器,二者在技术逻辑、资源消耗、应用场景等方面存在本质差异。这种差异不仅体现在算法层面,更深刻影响着AI技术的商业化落地与社会价值实现。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
OpenAI深夜扔出开源核弹,gpt-oss 20B和120B两款模型同时上线。它们不仅性能比肩o3-mini和o4-mini,而且还能在消费级显卡甚至手机上轻松运行。gpt-2以来,奥特曼终于兑现了Open AI。
在人工智能领域的一次重大动作中,OpenAI终于打破了长达六年的沉默,宣布开源两款全新的语言模型——gpt-oss-120b与gpt-oss-20b。这一消息迅速引起了业界的广泛关注与讨论。
在AI界沉寂已久的OpenAI,近日终于有了新的动作,宣布开源两款语言模型——gpt-oss-120b和gpt-oss-20b。这一消息犹如一颗石子投入平静的湖面,激起了层层涟漪。
今天,OpenAI终于放出其传闻已久的开源模型:gpt-oss-120b和gpt-oss-20b。这两款模型均采用MoE架构,与DeepSeek的多款模型类似。
今年6月初,苹果公司发布了一篇具有重大影响力的论文《思考的幻象:从问题复杂性角度理解推理模型的局限性》。该论文深入研究了大型推理模型(LRMs)的推理能力,包括Claude 3.7 Sonnet Thinking、Gemini Thinking、DeepSee
在多项推理榜单(AIME24/25、LiveCodeBench、CodeForce、GPQA-diamond等)实现了轻量级推理模型的SOTA效果,比肩3倍激活参数大小的10B以下 Dense 模型,再次验证了 MoE 架构的推理潜力。
与大模型“六小龙”中趋于沉寂的其他几家同行相比,MiniMax用连续5天的上新,带来了久违的热闹场面。自6月17日起,MiniMax一周内相继发布了新的推理模型、视频生成模型、Agent、语音设计等产品。
本周二,欧洲人工智能公司 Mistral AI 发布了 Magistral,这是一个全新的大语言模型(LLM)系列,展现了强大的推理能力。它能够进行不断反思,并解决更复杂的任务。
对于不少网友和科技博主吐槽 iOS26 界面丑的情况,苹果客服表示,目前的 iOS26 是测试版本,也已接到过用户反馈界面设计丑的情况,但目前正式版本尚未发布,后续如果很多用户反馈这一问题的话,也有可能会改善的,建议等正式版本推送后再关注相关测评。(来源:封面
当地时间周二,法国人工智能初创公司Mistral宣布推出其首个推理模型,声称能够与OpenAI和DeepSeek等竞争对手的产品相抗衡。
最近,来自多家研究机构的林孙、魏红林、金枝吴等研究人员发表了一篇题为《评估即为一切:通过评估设计战略性夸大LLM推理能力》的研究论文,该论文发表于2025年6月5日的arXiv预印本平台(arXiv:2506.04734v1)。这项研究深入探讨了一个令人担忧的
推理模型 基准测试 deepsee deepseek推理模型 2025-06-09 15:43 11